Franz Xaver Messerschmidt from 1777
Dans cette étude on s’appuie sur un indicateur de sentiment , le NRC, qui présente l’avantage d’être disponible en français mais aussi d’offrir différents indicateurs de sentiment, des polarité, et une palette d’émotion qui s’appuient sur les travaux de pluchnik.
On explore la sensibilité et la cohérence de cet indicateur dans cette note technique et on y découvre le moyen de distinguer les contributions constructives des revendications dénonciatrices.
voir le rmd dans le projet github
voir le rmd dans le projet github
on utilise le package syuzhet et en particulier le dictionnaire “nrc” developpé par Mohammad, Saif M. et al pour la raison pratique que lui seul propose un dictionnaire en français.
On filtre le corpus sur un critère de 50 caractères minimum ou une dizaine de mots. Pour l’instant on élimine pas les textes très longs qui contribuent plus que proportionnellement au corpus (voir distribution des caractères dans la note 1. Une option est de travailler sur l’ensemble du texte en concaténant les variables textes. C’est cette option qui est choisie.
#on selectionne le corpus minimal
#concat
df$title[is.na(df$title)]<-" "
df$Organisation_EASP[is.na(df$Organisation_EASP)]<-" "
df$Missions_dec[is.na(df$Missions_dec)]<-" "
df$SP_Manquants[is.na(df$SP_Manquants)]<-" "
df$SP_Nouveaux[is.na(df$SP_Nouveaux)]<-" "
df$SP_Evolution[is.na(df$SP_Evolution)]<-" "
df$SP_Evolution2[is.na(df$SP_Evolution2)]<-" "
df2<-df %>% unite_("text", c("title","Organisation_EASP","Missions_dec","SP_Manquants","SP_Nouveaux","SP_Evolution","SP_Evolution2"),sep = " ")
df2$nbcar<-as.numeric(nchar(df2$text))
df2<-df2 %>% filter(nbcar>50)
#paramètres
method <- "nrc"
lang <- "french"
phrase<-as.character(df2$text)
#extraction
my_text_values_french<- get_sentiment(phrase, method=method, language=lang)
Le sentiment est plutôt positif, même si une fraction importante des contributions présentent des valeurs négatives. La variance est relativement élevées. Elle se distribue plutôt normalement au moins de manière symétrique.
Il est difficile d’observer un pattern clair, les différences sont plus importantes sur un plan individuel.
## Reading layer `DEPARTEMENT' from data source `C:\Users\UserPC\Documents\AtelierR\GiletJaune\Map\DEPARTEMENT.shp' using driver `ESRI Shapefile'
## Simple feature collection with 96 features and 4 fields
## geometry type: MULTIPOLYGON
## dimension: XY
## bbox: xmin: 99038 ymin: 6046556 xmax: 1242436 ymax: 7110480
## epsg (SRID): NA
## proj4string: +proj=lcc +lat_1=44 +lat_2=49 +lat_0=46.5 +lon_0=3 +x_0=700000 +y_0=6600000 +ellps=GRS80 +units=m +no_defs
On peut expliquer les variations du sentiment par des variables mesurées au niveau du départment. On teste ici des indicateurs simples :
Seul le niveau de vie est lié de manière significative, mais on sera prudent avec ce niveau d’agrégation qui est sans doute insuffisemment granulaire. On peut parfaitement compléter par d’autres variables, et en particulier les niveaux d’éducation, ce qu’on fait monnery et al sur la participation. A developper donc.
##
## Call:
## lm(formula = sentiment ~ NiveauVie_2015 + density_w + density_h,
## data = dep_d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.69270 -0.12009 0.00494 0.15324 0.69430
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.596e-01 3.983e-01 0.652 0.5162
## NiveauVie_2015 4.968e-02 1.968e-02 2.524 0.0134 *
## density_w -1.333e-05 1.059e-05 -1.259 0.2113
## density_h 3.640e-04 2.699e-04 1.349 0.1808
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2446 on 90 degrees of freedom
## Multiple R-squared: 0.1201, Adjusted R-squared: 0.09081
## F-statistic: 4.096 on 3 and 90 DF, p-value: 0.00896
Une analyse de variance montre que l’accès difficile ou aisé aux services publiques n’explique pas le sentiment. En revanche, prendre parti pour la décentralisation, et plus encore pour l’autonomie des fonctionnaires, est associé à des contributions dont le contenu est plutôt positif.
Ceci peut s’expliquer par le fait de porter ces conceptions conduit à proposer des solutions alternatives et positives, la critique porte sur l’inéfficience du système et se déporte sur la propositions d’alternatives. La conception antagoniste est sans doute plus chargée de récriminations, elles se constitue dans une dénonciation de l’inéfficacité, et recommande de manière punitive des actions de réduction, de suppression, de contrôle accru. C’est une hypothèse qu’il va falloir éprouver dans l’analyse des contenus.
##
## Call:
## lm(formula = sentiment ~ QTransfertMission + QAcces_SP + Qautonomie,
## data = df3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -38.888 -2.071 -0.305 1.899 44.899
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.10098 0.03615 58.120 <2e-16
## QTransfertMissionNe pas décentraliser -0.76621 0.03541 -21.636 <2e-16
## QAcces_SPAccès facile -0.02992 0.03734 -0.801 0.423
## QautonomiePas d'autonomie -0.41677 0.03964 -10.514 <2e-16
##
## (Intercept) ***
## QTransfertMissionNe pas décentraliser ***
## QAcces_SPAccès facile
## QautonomiePas d'autonomie ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.995 on 53681 degrees of freedom
## (31027 observations deleted due to missingness)
## Multiple R-squared: 0.01322, Adjusted R-squared: 0.01316
## F-statistic: 239.6 on 3 and 53681 DF, p-value: < 2.2e-16
## Analysis of Variance Table
##
## Response: sentiment
## Df Sum Sq Mean Sq F value Pr(>F)
## QTransfertMission 1 9684 9683.9 606.6965 <2e-16 ***
## QAcces_SP 1 27 26.7 1.6706 0.1962
## Qautonomie 1 1764 1764.4 110.5391 <2e-16 ***
## Residuals 53681 856840 16.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
on utilise simplement la fonction get_nrc_sentiment, en précisant le dictionnaire français. L’échelle comprend en fait deux éléments : les 8 émotion de base au sens de pluchik, et deux indicateurs de polarité.
Les textes étant inégaux en taille on va ramener l’indicateur de polarité au nombre de caractères (une base de 100) de chaque contribution. En effet l’algo compte les valence et leur intensité est proportionnel à la longueur du texte. Ce qui est clairement démontré par la seconde figue.
A partir de ces deux mesures, 4 indicateurs peuvent êtres construits
le dernier graphe pour apprend que les jugements plutôt positifs sont aussi les moins expressifs. On trouve ici un argument en faveur de l’analyse précédente.
Encore un peu de chloroplète…pour comparer emotionnalité et valence du discours. Il semblerait bien que l’emotionnalité soit associé à la négativité, les cartes se recoupent.
On testant la correlation au niveau du département, on s’aperçoit d’une corrélation très nette. Elle est moins évidente avec la positivité. Le caractère revendicatif est dépendant des arguments proposés : des solutions ou des dénonciations.
On se concentre sur les 8 facettes de l’émotion telle que conceptualisée par Plutchik
– trust goes from acceptance to admiration – fear goes from timidity to terror – surprise goes from uncertainty to amazement – sadness goes from gloominess to grief – disgust goes from dislike to loathing – anger goes from annoyance to fury – anticipation goes from interest to vigilance – joy goes from serenity to ecstasy
et mesurée sur la base des textes par l’outil NCR élaborée par Mohammad Saif et pour le français voir.
On peut raisonner en part relative des émotions dans le mesure où l’outil NCR compte les éléments probables de chacune des émotions. C’est pourquoi on recode les variables, encore une fois les textes long risquent de peser plus que les textes courts, la normalisation est nécessaire.
et la distribution spatiale des émotions : confiance et tristesse…
Le premier élément est que le sentiment est plus positif, ici sur le critère de confiance, quand l’accès aux services public est aisés que lorqu’il est difficile. Les différences en terme d’autonomie sont très faibles, en revanche une différenc eplus nette est observée entre ceux qui sont pour la décentralisation et ceux qui le sont moins. Les différences sont cependant très faibles.
Il reste a explorer systématiquement des autres émotions. Nous aurons au moins montré que l’on peut capter des différences émotionnelles à l’échelle du territoire. Un terrain de recherche est ouvert pour mieux en établir, la validité, la fiabilité et la sensibilité pour les employer dans des analyses plus fines. Notamment la manière dont les populations, distribuées dans situations sociales et spatiales particulières, expriment leurs sentiments et être capable de les comparer.
La tonalité positive qui est employée est très certainement lié aux biais de selection qui oeuvrent dans la participation. La véhémence est marginale.
##
## Call:
## lm(formula = trust ~ QTransfertMission + QAcces_SP + Qautonomie,
## data = df2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31166 -0.12984 -0.03635 0.08228 0.74256
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 0.287740 0.002024 142.130
## QTransfertMissionNe pas décentraliser -0.025311 0.002001 -12.652
## QAcces_SPAccès facile 0.023921 0.002097 11.407
## QautonomiePas d'autonomie -0.004987 0.002250 -2.216
## Pr(>|t|)
## (Intercept) <2e-16 ***
## QTransfertMissionNe pas décentraliser <2e-16 ***
## QAcces_SPAccès facile <2e-16 ***
## QautonomiePas d'autonomie 0.0267 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2183 on 50142 degrees of freedom
## (34566 observations deleted due to missingness)
## Multiple R-squared: 0.006404, Adjusted R-squared: 0.006344
## F-statistic: 107.7 on 3 and 50142 DF, p-value: < 2.2e-16
## Analysis of Variance Table
##
## Response: trust
## Df Sum Sq Mean Sq F value Pr(>F)
## QTransfertMission 1 9.06 9.0632 190.1624 < 2e-16 ***
## QAcces_SP 1 6.11 6.1051 128.0973 < 2e-16 ***
## Qautonomie 1 0.23 0.2341 4.9114 0.02668 *
## Residuals 50142 2389.77 0.0477
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
l’émotion du grand débat n’est pas celle de l’homme vexé que l’on attendait. Plutôt positive et neutre émotionnellement elle reflète des biais de sélection dans la participation.
Mais ce sont des variations qui semblent répondre à un schéma compréhensible : deux types de contributions , les unes constructives et apaisées, les autres plus revendicatives et expressives. Pourquoi dans certains endroits les unes prédominent sur les autres est un thème de recherche à approfondir.
##limites
L’analyse du sentiment est un processus plein de piège, et dépends des dictionnaires, celà pose un problème de qualité de la méthode. Il faudra sans doute des benchmark, au minimum l’établissement d’un standard, et examiner la convergence de différentes méthodes.
Mais ce n’est pas un problème pour l’analyse comparative si les biais sont systématiques et proportionnels. A défaut d’une mesure aux grandeurs établie, on dispose d’un instrument ordinal qui permet au point les comparaisons. Quant à la sensibilité et la fiabilité, une étape suivante sera d’étudier leur convergence avec d’autres méthodes.
la territorialité pose problème, le département n’est pas une bonne unité d’analyse, il moyenne les disparités d’espace et de surface. L’analyse doit être répliquée au niveau communal avec des comparaisons selon des types de communes, de manière à saisir les variations plus fines des environnement sociaux.